纽科姆问题与理性的遗憾

Newcomb’s Problem and Regret of Rationality

❦

下面这个难题，很可能是决策理论史上最具争议的困境：

一个来自另一银河系的超级智能，我们称之为 Omega，来到地球，开始玩一个古怪的小游戏。在这个游戏里，Omega 选中一个人类，在他们面前放下两个盒子，然后飞走。

盒子 A 是透明的，里面装着 1000 美元。

盒子 B 是不透明的，里面要么有 100 万美元，要么什么也没有。

你可以两个盒子都拿，也可以只拿盒子 B。

关键的转折在于：当且仅当 Omega 预测你只会拿盒子 B 时，它才会在盒子 B 里放入 100 万美元。

到目前为止，在 100 次被观察到的情形里，Omega 每次都预测正确——凡是两盒都拿的人，都会发现盒子 B 是空的，只拿到 1000 美元；凡是只拿盒子 B 的人，都会发现 B 里装着 100 万美元。（我们假设：如果你只拿盒子 B，那么盒子 A 就会在一缕烟雾中消失；之后别人也不能再拿盒子 A。）

在你作出选择之前，Omega 已经飞走，去进行下一个游戏了。盒子 B 早就已经是空的，或者早就已经是满的。

Omega 把两个盒子丢在你面前的地上，然后飞走。

你会两个盒子都拿，还是只拿盒子 B？

而标准的哲学对话通常是这样展开的：

单箱者：「我当然只拿盒子 B。我宁愿拿到 100 万，也不要 1000。」

双箱者：「Omega 已经走了。盒子 B 要么已经装满，要么已经是空的。如果盒子 B 已经是空的，那么两盒都拿我能得 1000 美元，只拿盒子 B 我得 0。如果盒子 B 已经是满的，那么两盒都拿我能得 100 万 1000 美元，只拿盒子 B 我能得 100 万美元。无论哪种情况，两盒都拿我都更划算；把 1000 美元留在桌上只会更糟——所以我会保持理性，把两盒都拿走。」

单箱者：「既然你这么理性，那你怎么还不富？」

双箱者：「这不怪我；Omega 偏要奖赏那些带有非理性倾向的人，但事到如今，我也已经来不及对此做什么了。」

关于纽科姆式问题，相关文献已经非常庞大——尤其如果你把囚徒困境看作它的一个特殊情形，而人们通常也确实这么看。《Paradoxes of Rationality and Cooperation: Prisoner’s Dilemma and Newcomb’s Problem》1 是一本论文集，其中收录了 Newcomb 的原始文章。对于只读网络材料的人来说，可以参见 Ledwig 的博士论文，它总结了主要的标准立场。2

我不打算把整套文献都讲一遍，但现代决策理论中的主流共识是：你应该拿两盒，而 Omega 只是在奖赏具有非理性倾向的行动者。这种主流观点有一个名字，叫作「因果决策理论」。

我也不打算在这里介绍我自己的分析。就算按我的标准来说，那也是个太长的故事。

但即便是因果决策理论家也承认，在纽科姆问题中，如果你有能力预先承诺自己只拿一个盒子，那么你就应该这么做。如果你能在 Omega 检查你之前先作出这种预先承诺，那么你就是在直接导致盒子 B 被装满。

而放到我的领域里——万一你已经忘了，那就是自我修改 AI——这等于是说：如果你造出一个在纽科姆问题上会拿两盒的 AI，那么只要这个 AI 预先考虑到自己可能会面对这种情形，它就会把自己修改成在纽科姆问题上只拿一盒的 AI。能够自由访问自身源代码的行动者，也就拥有了一种廉价的预先承诺手段。

如果你预期自己一般来说可能会面对某种纽科姆式问题，却不知道它的具体形式呢？那你就必须把自己修改成某种行动者，使其倾向通常都能在纽科姆式问题上获得高回报。

但这种通常适合纽科姆式问题的行动者倾向，到底长什么样？这能被形式化地规定出来吗？

可以，但当我试图把它写出来时，我意识到自己其实是在开写一本小书。而那又不是我最重要、最该写的那本书，所以我把它搁置了。写作速度慢，真的是我人生的一大祸根。在我看来，我推导出来的那套理论除了适合纽科姆式问题之外，还有许多漂亮性质。如果有人肯把它接受为我的博士论文，它会成为一篇很不错的博士论文。但差不多只有那种程度的回报，才足以让我把这个项目从搁置状态里重新拿出来。否则，以我目前写书的速度，我没法为这项时间投入辩护。

我之所以说这些，是因为有一种常见态度是：「支持单箱的口头论证随处可见；难的是发展出一套会单箱的好决策理论」——也就是：一套在纽科姆问题上会单箱、而在别处又不会产出荒谬结果的连贯数学理论。所以我确实理解这一点，也确实着手去发展这样一套理论，但我写长论文的速度实在太慢，以至于没法把它发表出来。信不信由你，事实就是如此。

不过，我还是想呈现一下自己在纽科姆问题上的某些动机——那些驱使我去寻找新理论的理由——因为它们能说明我对理性的源头态度。即便我没法把这些动机所推动出的那套理论本身呈现给你……

首先，最重要地，从根本上说，高于一切的是：

理性行动者应该取胜。

别误会我，以为我说的是那种好莱坞式「理性」刻板印象：理性主义者就该自私、就该短视。如果你的效用函数里有一项关乎他人，那就去赢得他们的幸福。如果你的效用函数里有一项关乎一百万年后的未来，那就去赢得那个万古长时。

但无论如何，要赢。不要合理地输掉；就是要赢。

现在，有些因果决策理论的辩护者会争辩说，双箱者已经在尽其所能地取胜了；如果他们被一个偏爱非理性者的预测者诅咒了，那也不是他们的错。我待会儿会谈这种辩护。但首先，我想区分两类人：一类因果决策理论家真心相信双箱者确实已在尽力取胜；另一类人则认为，拿两盒是合理的或理性的做法，只不过这种合理做法在这个案例里恰好会可预测地输掉。外面抱持这种想法的人非常多——他们认为理性在各种问题上都注定会输，这同样也是好莱坞式「理性」刻板印象的一部分：Kirk 注定比 Spock 更高明。

接下来，我们来看「Omega 偏爱非理性者」这一指控。我完全能够设想这样一种超存在：它只奖赏那些生来带着某种特定基因的人，不论他们作出什么选择。我也能够设想这样一种超存在：它奖赏那些大脑中刻着某种特定算法的人——比如「用英文描述你的选项，然后按字母顺序选择最后一个选项」——却不会奖赏那些因为别的理由作出同样选择的人。但 Omega 奖赏的是那些选择只拿盒子 B 的人，不论他们是通过什么算法得出这一决定的；这正是我不接受「Omega 在奖赏非理性」这一指控的原因。Omega 不在乎你是否遵循某种特定的认知仪式；Omega 只在乎你被预测到会作出的决定。

我们可以选择自己喜欢的任何推理算法，而我们会受到奖赏或惩罚，只取决于该算法作出的选择，并不存在其他依赖——Omega 只在乎我们去了哪里，不在乎我们是怎么到那儿的。

正是「自然并不在乎我们的算法」这一观念，把我们从任何特定认知仪式的依恋中解放出来，使我们得以追求取胜之道——除了我们相信它能赢这一点之外。任何规则都可以拿出来重审，唯独取胜这条规则不行。

正如宫本武藏所说——这话实在值得再重复一遍：

长兵能赢，短兵亦能赢。总之，二天一流之道，在于不问兵器为何、不问兵器长短，只取胜之精神。3

（再举一个例子：McGee 曾论证，说我们必须采用有界效用函数，否则就会在无限时间里遭受「荷兰书」。但是：效用函数不是可以任意拿来改的东西。我热爱没有极限、没有上界的生命；不存在某个有限的寿命长度 N，会让我宁可选择以 80.0001% 的概率活 N 年，也不愿选择以 0.0001% 的概率活到 googolplex 年、并以 80% 的概率永生。这已经足以推出：我的效用函数是无界的。所以我只得想办法去优化那样的道德。你不能先告诉我：高于一切，我必须服从某种特定的认知仪式；然后又告诉我：如果我服从了那种仪式，我就必须改变自己的道德，才能避免遭受荷兰书。把会输的仪式扔掉；别去改动「取胜」的定义。这就像为了不让纽科姆问题把你偏好的认知仪式显得难看，干脆决定自己更喜欢 1000 美元而不是 100 万美元一样。）

「但是，」因果决策理论家说，「要只拿一个盒子，你就必须以某种方式相信：你的选择能够影响盒子 B 里是空还是满——而那是不合理的！Omega 已经走了！这在物理上不可能！」

不合理？我是理性主义者：我为什么要在乎自己看起来不合理？我不必服从某种特定的认知仪式。我也不必只拿盒子 B，因为我相信尽管 Omega 已经走了，我的选择仍会影响盒子。我可以只是……只拿盒子 B。

我确实有一种拟议中的替代性认知仪式，它会算出这个决策；只是这页页边太小，装不下它。但我本不该需要把它展示给你。关键不在于拥有一套优雅的取胜理论——关键在于取胜；优雅只是副产品。

换个角度看也一样：与其先从「什么是合理决策」的概念出发，再去问「合理」的行动者是不是会带着很多钱离开；不如先看那些带着很多钱离开的行动者，发展一套关于什么样的行动者往往能带走最多钱的理论，再由该理论去反过来弄清什么才叫「合理」。「合理」也许只是在指：符合我们当前认知仪式的决策——不然还有什么会决定一件事看起来「合理」与否呢？

摘自 James Joyce（和那位小说家并无亲属关系）的**《Foundations of Causal Decision Theory》**：4

Rachel 对「那你怎么还不富？」这个问题有一个完全说得过去的回答。她会说：「我不富，是因为我不是那个心理学家认为会拒绝这笔钱的人。我就是不像你，Irene。既然我知道自己属于会拿钱的那一型，而那位心理学家也知道我是这一型，那么我认为自己的账户里没有那 100 万美元，就是合理的。无论我做什么，我最多也就只能拿到那 1000 美元。所以，对我来说，唯一合理的事就是把它拿走。」

Irene 也许会继续追问：「可你难道不希望自己像我一样吗，Rachel？难道不希望自己是那种会拒绝的人吗？」人们很容易以为，作为坚定因果决策理论家的 Rachel，必定只能对这个问题作否定回答，而这显然不对（因为如果她像 Irene 一样，她就会变富）。事实并非如此。Rachel 完全可以，也应该承认，她确实希望自己更像 Irene。她可能会让步说：「如果我是那种会拒绝的人，对我会更好。」这时 Irene 会叫道：「你承认了！所以拿那笔钱毕竟并不明智。」可惜，对 Irene 来说，她的结论并不能由 Rachel 的前提推出。Rachel 会耐心解释说：在纽科姆问题里，希望自己是那种会拒绝的人，并不等于否认「无论自己属于哪一型，都应该拿走那 1000 美元」这一点。当 Rachel 希望自己是 Irene 那一型时，她希望的是Irene 拥有的那组选项，并不是在认可 Irene 的选择。

我会说，这是一条理性的普遍原则——实际上，也是我定义理性的一部分：你永远不该落到去羡慕别人单纯的选择那一步。若 Omega 奖赏的是基因，或者那些基因让人拥有总体上更快乐的倾向，那么你也许可以羡慕别人的基因。但上面的 Rachel 所羡慕的，是 Irene 的选择，而且仅仅是她的选择，不论 Irene 是用什么算法作出这个选择的。Rachel 所希望的，只是自己拥有一种会作出不同选择的倾向。

你不该一边声称自己比别人更理性，一边又去羡慕对方的选择——仅仅是对方的选择。直接去做你所羡慕的那个行为就好了。

我一直在试图说：理性就是取胜之道；但因果决策理论家却坚持认为，两盒都拿才是真正会赢的做法，因为把 1000 美元留在桌上，你根本不可能做得更好……尽管单箱者离开实验时拿到的钱更多。每当你发现自己把「赢家」定义成某个并非正站在一大堆效用顶端微笑的行动者时，都要警惕这种论证。

是的，确实有各种思想实验会让某些行动者一开始就占到优势——但如果任务是，比如说，决定要不要跳下悬崖，那你就要小心，别因为拒绝跳崖这一点不公平，就把那些不跳崖的行动者定义成相对于跳崖者拥有不公平的先验优势。到了这一步，你其实已经偷偷把「取胜」重新定义成了符合某种特定认知仪式。盯住钱！

再换一种看法：面对纽科姆问题时，你会不会很想拼命找出一个理由，让自己相信：只拿盒子 B 才是完全合理、完全理性的选择？因为如果真有这样一条论证路线存在，你就会只拿盒子 B，然后发现里面装满了钱。假如你确信：多花一个小时把它想透之后，你最终就能说服自己，相信只拿盒子 B 才是理性选择；那你会愿意多花这一个小时吗？这同样是个相当奇怪的位置。通常来说，理性的工作是弄清哪一个选择最好——而不是替某个特定选择寻找一个「它最好」的理由。

也许，只要钱还没有真的摆在你眼前，说你在纽科姆问题里「应该」拿两盒、说那才是「合理」的做法，就显得太容易了。也许到了这时候，你只是对哲学困境已经麻木了而已。如果你女儿得了一种 90% 致死的疾病，而盒子 A 里装着一种有 20% 概率能治好她的血清，盒子 B 里则可能装着一种有 95% 概率能治好她的血清，会怎样？如果有一颗小行星正朝地球飞来，而盒子 A 里装着一种 10% 的时候有效的小行星偏转器，盒子 B 里则可能装着一种 100% 有效的小行星偏转器，又会怎样？

那时，你会不会发现自己被诱惑着作出一个不合理的选择？

如果盒子 B 里押着的是某种你绝不能放下的东西呢？某种对你来说压倒性地比「显得合理」更重要的东西？如果你绝对必须取胜——是真正地取胜，而不是仅仅被定义为取胜？

那你会不会竭尽全力地希望：那个「合理」的决定其实是只拿盒子 B？

那也许就到了该更新你对「合理」之定义的时候。

那些自称理性主义者的人，不该发现自己在羡慕所谓非理性者的单纯选择，因为你的决定本来就可以是你想要的任何样子。当你发现自己处在这种位置时，你不该责备对方没能符合你对「合理」的概念。你应该意识到，是你把「道」弄错了。

同样地，如果你发现自己在把「合理」的信念，与那个看起来最可能真的为真的信念分开记账——那要么是你误解了「合理」，要么就是你的第二直觉干脆错了。

当然，你不能同时把「理性」定义成取胜之道，又同时把「理性」定义成贝叶斯概率论与决策理论。但我在这里提出的论点，以及我相信贝叶斯这一劝告的寓意，正是：支配取胜的法则，事实证明确实就是数学。如果有一天事实表明贝叶斯失效了——在某个问题上，仅仅因为它作出的那些决策，就系统性地拿到比某种更优替代方案更低的回报——那贝叶斯就得被扔出窗外。「理性」不过是我用来给自己关于取胜之道的信念贴上的标签——也就是那个站在一大堆效用顶端微笑的行动者所走的道。而目前，这个标签指的就是贝叶斯技艺（Bayescraft）。

我知道，这还算不上对因果决策理论的致命批评——那得靠真正的书和/或博士论文才行——但我希望，它至少说明了我对「理性」这一观念所抱持的某些底层态度。

[2015 年补记：我现在已经写出了一本书长度的阐述，介绍一种支配因果决策理论的决策理论——「Timeless Decision Theory」。5 密码学家 Wei Dai 又回应提出了另一种因果决策理论的替代方案：updateless decision theory，它同时支配因果决策理论与 timeless decision theory。就 2015 年而言，对这些理论的最佳最新讨论，是 Daniel Hintze 的「Problem Class Dominance in Predictive Dilemmas」6 与 Nate Soares 和 Benja Fallenstein 的「Toward Idealized Decision Theory」。7]

你不该发现自己在区分「取胜的选择」和「合理的选择」。你也不该发现自己在区分「合理的信念」和「最可能为真的信念」。

这就是为什么我用「理性」这个词来指称我对准确与取胜的信念——不是用来指代言辞上的推理，或能带来确定无疑成功的策略，或逻辑上可证明之物，或可公开证明的东西，或者任何看起来合理的东西。

正如宫本武藏所说：

当你手中握剑时，首要之事是不问手段为何，都要以斩敌为意。无论你是格挡、击打、跃进、劈砍，还是碰触到敌人的剑，你都必须在同一动作中斩敌。达到这一点至关重要。如果你只想着击打、跃进、劈砍或碰触敌人，你就不可能真正斩到他。

Richmond Campbell 与 Lanning Snowden 编，《Paradoxes of Rationality and Cooperation: Prisoner’s Dilemma and Newcomb’s Problem》（Vancouver：University of British Columbia Press，1985）。↩︎

Marion Ledwig，《Newcomb’s Problem》，博士论文，University of Constance，2000。↩︎

宫本武藏，《五轮书》。↩︎

James M. Joyce，《The Foundations of Causal Decision Theory》（New York：Cambridge University Press，1999），doi:10.1017/CBO9780511498497。↩︎

Yudkowsky，《Timeless Decision Theory》。↩︎

Daniel Hintze，「Problem Class Dominance in Predictive Dilemmas」，荣誉论文（2014）。↩︎

Nate Soares 与 Benja Fallenstein，「Toward Idealized Decision Theory」，技术报告。Berkeley，CA：Machine Intelligence Research Institute（2014），http : / / intelligence.org/files/TowardIdealizedDecisionTheory.pdf。↩︎

Thoughts Memo 翻译合集

纽科姆问题与理性的遗憾